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摘要 : 


【 目的 ] 改进 服务 计算 环境 下 Web 服务 推荐 数据 稀 朴 性 导致 的 相似 服务 或 相似 用 户 缺 失 的 问题 。[ 方法 】 


根据 相似 性 距离 分 别 为 目标 用 户 和 服务 构造 个 性 化 的 相似 性 用 户 群 体 和 服务 群体 ,同时 使 用 用 户 和 服务 群体 中 
心 之 间 的 群体 相似 性 设计 新 的 混合 型 推荐 算法 (GHQR)。[ 结果 ] 使 用 197 万 条 真实 Web 服务 质量 数据 集 的 实验 
结果 表明 , 与 UPCC 和 IPCC 两 种 推荐 算法 相 比 , GHQR 的 标准 平均 绝对 误差 (NMAE) 平 均 下 降 31%、69%, 覆盖 
率 平 均 提高 105%, 163%. [ BR ] 实验 仅 对 服务 质量 属性 响应 时 间 进 行 分 析 , 还 需 对 其 他 Web 服务 质量 属性 如 
否 吐 率 等 进行 验证 。[【 结论 ] 与 WSRec 和 CFBUGI 推荐 算法 相 比 , GHQR 的 NMAE 平均 下 降 26%. 7.7%, 覆盖 
率 平均 提高 188%、4%。GHGQR 不 仪 能 提高 预测 的 准确 性 , 而 且 和 覆盖 率 也 获得 显著 提高 。 
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随 着 互联 网 上 Web 服务 的 不 断 增 加 ， 如 何 为 服务 
用 户 提供 满足 其 需求 的 Web 服务 已 成 为 服务 计算 领域 
内 的 一 个 研究 热点 和 重点 中。 为 了 适应 Web 服务 的 
动态 网 络 环境 ,基于 服务 质量 (Quality of Service, QoS) 
的 Web 服务 预测 方法 已 成 为 该 问题 的 主要 解决 方案 。 
由 于 Web 服务 的 QoS 值 会 受到 网 络 延迟 、 用 户 / 服 务 
物理 位 置 等 因素 的 影响 ,可 能 使 得 Web 服务 的 QoS 值 
并 不 是 服务 提供 商 所 提供 的 QoS 值 叫 .不同 的 服务 用 户 
调用 同一 个 Web 服务 可 能 具有 不 同 的 QoS 值 。 如 日 本 
dyndns.org 服务 提供 商 提供 的 语音 验证 人 码 服务 
CaptchaAudio， 对 于 在 美国 的 用 户 调用 该 服务 获得 的 
响应 时 间 为 0.222 秒 ， 而 对 于 在 日 本 的 用 户 us 调用 该 服 
务 获 得 的 响应 时 间 为 0.358 秒 。 因 此 如 何 获 得 动态 实时 
的 真实 QoS 值 是 Web 服务 推荐 吸 待 解决 的 关键 问题 。 

目前 基于 Qos 的 推荐 研究 主要 集中 于 将 传统 协同 
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凌 霜 等 由 较 早 地 提出 一 种 基于 QoS 的 Web 服务 推荐 算 
法 ,该 算法 将 传统 协同 过 滤 中 的 商品 评分 值 奉 换 为 服 
务 用 户 调用 服务 的 QoS 值 。Zheng 等 中 提出 一 种 基于 
用 户 和 基于 服务 的 混合 型 Web 服务 推荐 算法 ,并 发 布 
了 真实 Web 服务 质量 数据 集 WS-DREAM。 张 吏 等 所 考 
虑 可 信 因 素 对 服务 推荐 的 影响 ,提出 一 种 基于 协同 过 
滤 的 可 信 Web 服务 推荐 方法 。 王 海 艳 等 1 引入 服务 的 
推荐 属性 特征 ,并 对 传统 的 相似 度 计算 公式 进行 改进 ， 
从 而 提出 一 种 基于 可 信和 联盟 的 服务 推荐 方法 。 美 波 等 中 
将 Web 服务 之 间 的 关系 抽象 成 一 个 二 部 图 , 提出 一 种 
基于 二 部 图 的 服务 推荐 算法 。 虽 然 上 述 研究 针对 单个 
用 户 或 单个 服务 对 传统 推荐 算法 进行 改进 ， 并 获得 优 
于 传统 推荐 算法 的 推荐 性 能 , 但 这 些 研 究 较 少 考虑 到 
用 户 或 服务 所 在 的 用 户 群 体 或 服务 群体 对 Web 服务 推 
荐 结果 的 影响 ,其 推荐 性 能 仍 需 获得 进一步 的 提高 。 
以 用 户 群 体 或 服务 群体 为 单位 进行 推荐 不 仅 能 缓解 因 
数据 稀 玻 性 导致 的 相似 邻居 缺失 问题 ,而 且 能 更 准确 
地 反映 出 用 户 之 间或 服务 之 间 的 真实 相似 性 ， 从 而 提 
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高 推荐 的 性 能 。 

此 外 , 另 一 部 分 研究 工作 使 用 聚 类 算法 对 相关 
用 户 进行 聚 类 ， 再 根据 聚 类 结果 进行 Web 服务 的 推 
荐 "中 这些 肾 类 算法 与 本 文 所 用 的 相似 度 距 离 方法 的 
区 别 是 不 仅 群 体 划 分 的 依据 不 同 , 而 且 相 似 性 计算 的 
顺序 和 方法 不 同 。 使 用 聚 类 算法 的 Web 服务 推荐 使 用 
用 户 的 情境 信息 (如 : 地 理 位 置 ) 进 行 群体 的 划分 , 之 
后 再 计算 单个 用 户 与 用 户 群 体 之 间 的 相似 性 ， 此 外 情 
境 信息 的 缺失 会 导致 这 些 聚 类 算法 的 失效 。 本 文 方法 
仅 使 用 用 户 调用 服务 的 QoS 矩阵 而 不 依赖 于 特殊 的 情 
境 数 据 。 首先 计算 单个 用 户 (服务 ) 之 间 的 相似 性 , 然后 
依据 单个 目标 用 户 (服务 ) 的 相似 性 距离 为 用 户 ( 服 务 ) 
构建 用 户 群 体 (服务 群体 ), 再 计算 用 户 群 体 (服务 群体 ) 
之 间 的 相似 性 ， 从 而 更 好 地 度量 用 户 之 间或 服务 之 间 
的 相似 性 , 林 淆 进 等 "在 传统 推荐 领域 内 提出 一 种 基于 
用 户 群 体 影响 的 协同 过 滤 推 荐 算法 。 本 文 与 该 算法 不 同 
之 处 在 于 : 应 用 场景 不 同 , 不 同 于 传统 的 对 商品 评分 进 
行 协同 过 滤 推 荐 , 本 文 是 应 用 于 服务 计算 领域 对 Web 
服务 质量 进行 预测 和 推荐 ; 同时 使 用 用 户 和 服务 群体 
中 心 之 间 的 相似 性 构建 新 的 混合 型 推荐 算法 ; 在 群体 
预测 公式 中 以 群体 中 心 均 值 代替 文献 [12] 中 用 户 的 均 
值 ; 不 仅 考虑 用 户 群 体 之 间 的 关系 而 且 将 服务 群体 之 
间 的 关系 也 引入 Web 服务 推荐 , 充分 利用 基于 用 户 群 
体 和 基于 服务 群体 的 推荐 优势 ， 提出 一 种 基于 相似 性 
群体 的 混合 型 Web 服务 质量 推荐 算法 (Similarity Group 
based Hybrid Web Service QoS Recommendation 
Algorithm, GHQR)。 该 算法 利用 群体 代 蔡 个 体 用 户 或 服 
F, 从 而 可 以 有 效 地 解决 Web 服务 推荐 中 数据 稀 玻 性 
导致 的 相似 服务 或 相似 用 户 缺 失 的 问题 , 在 提高 Web 
服务 推荐 准确 性 的 同时 获得 较 高 的 预测 值 覆 盖 率 。 


2 基于 相似 性 群体 的 混合 型 Web 服务 推荐 

算法 

为 了 解决 Web 服务 推荐 算法 数据 稀 玻 性 问题 的 同 
时 提高 推荐 算法 的 性 能 , GHQR 充分 考虑 用 户 群 体 和 
服务 群体 对 Web 服务 推荐 结果 的 影响 ,并 依据 相似 性 
距离 构建 相应 的 用 户 群 体 和 服务 群体 。GHQR 主要 包 
括 以 下 模块 : 用 户 群 体 和 服务 群体 的 构建 、 用 户 群 体 
和 服务 群体 相似 性 计算 、 相 似 群体 邻居 的 选择 、 混 合 
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型 Web 服务 推荐 公式 、 算 法 及 性 能 分 析 。 
21 预备 知识 

基于 协同 过 滤 的 Web 服务 推荐 主要 使 用 基于 用 户 
的 协同 过 滤 技 术 和 基于 项 目的 协同 过 滤 技术 1 站。 其 
中 ,相似 性 的 计算 方法 大 多 采用 皮尔 森 相 关系 数 法 
(Pearson Correlation Coefficient, PCO) 中 ,基于 用 户 的 皮 
尔 森 相关 系数 (User-based Pearson Correlation Coefficient, 
UPCC) 和 基于 项 目的 皮尔 森 相 关系 数 (Item-based 
Pearson Correlation Coefficient, IPCO) 分 别 计算 用 户 之 
间 的 相似 性 和 项 目 之 间 的 相似 性 中。 
2.2 用户 群体 和 服务 群体 的 构建 

受到 文献 [12] 的 启发 , 用 户 的 群体 影响 能 更 加 精 
确 地 刻画 用 户 之 间 的 相似 度 。 本 文 将 文献 [12] 的 用 户 
群体 方法 应 用 于 服务 计算 领域 , 并 分 别 定义 本 文 的 用 
户 群 体 和 服务 群体 。 

定义 1 给 定 用 户 集合 U={u, w, …, Un}, 为 U 中 
的 任意 用 户 u, 定义 其 a 群体 为 : a(u;)={ul pe U, 
A(u,u;)<1-a}—{uj}, FL Alu) 为 空间 度量 ， 
a(W) 表 示 为 服务 用 户 u 构建 的 用 户 群 体 a, 并 且 相 似 
度 距离 闷 值 a 取 值 为 0 二 a <1", 

定义 2 给 定 服务 集合 S={si, ss,…, sn}, 为 S 中 的 
任意 服务 si 定义 其 B 群 体 为 : BGs;)= {ylweS, 
A(y,s;) <1-B}—{s,}, FLA Alys) 为 空间 度量 , BCs) 
表示 为 服务 用 户 si 构建 的 服务 群体 B, 并 且 相 似 度 距离 
BA BIA O<p <1"), 

根据 定义 1 和 定义 2, 可 以 构建 基于 相似 度 距 离 
EJE a H HH P RE oa(u) P AE FAAA E E S BJE B AS HR 
FFERR) HEA BAAS BEBA, 对 应 
的 空间 度量 值 将 增 大 ,用 户 群 体 和 服务 群体 中 包括 的 
用 户 和 服务 数量 会 随 之 增加 。 用 户 之 间 和 服务 之 间 的 
差别 将 减少 。 由 此 可 见 , 用 户 群 体 和 服务 群体 的 大 小 
将 会 影响 用 户 之 间 和 服务 之 间 的 相似 关系 。 
2.3 ”用户 群体 和 服务 群体 相似 性 计算 

不 同 于 林 焰 进 等 ("使 用 平均 相似 性 方法 计算 用 户 
群体 的 相似 性 ， 本 文 考虑 到 用 户 群 体 和 服务 群体 的 群 
体 特征 ,定义 群体 中 心 代替 群体 ， 从 而 计算 用 户 群 体 
和 服务 群体 之 间 的 相似 性 。 

定义 3 用 户 群体 中 心 pi = {is Tps 2lp, 5, tH 
定义 为 用 户 群 体 a(w;) 中 所 有 用 户 调 用 服务 向 量 的 平均 
QoS 向 量 。 


XIANDAI TUSHU QINGBAO JISHU 


定义 4 服务 群体 中 心 qi = {ty glug, ot ola, qf Be 
定义 为 在 服务 群体 B(si) 中 用 户 调用 所 有 Web 服务 的 平 
均 QoS 向 量 。 

根据 定义 3 和 定义 4, 设计 用 户 群 体 和 服务 群体 
之 间 的 相似 性 计算 公式 如 下 : 


(pij “tp, (1p,,j —1p, ) 
jel(p NI(p,) 


ay) 2 
| Cj g Tp, ) | > (tp, i ~ Tp, ) 
jel(p, NI(p,) jel(p NI(p, ) 


a) 


UGSim(p;,p2) = 


(aq, = Ty, uq iy) 
ueU(q)NU(g,) 


| ee 
(2) 
其 中 , UGSim(pi, p2) 为 用 户 群体 pi 和 用 户 群 体 p? 
的 群体 相似 性 值 ， SGSim(qi，q?) 为 服务 群体 q! 和 服务 
群体 qo 的 群体 相似 性 值 。j 属于 用 户 群 体 pi 和 用 户 群 
体 ps 共同 调用 的 服务 集合 , u 属于 同时 调用 服务 群体 
qi 和 服务 群体 qo 的 用 户 集合 。 
2.4 相似 群体 邻居 的 选择 
传统 使 用 Top-K 算法 对 相似 邻居 的 相似 性 进行 排 
序 ， 从 而 选择 相似 性 较 高 的 K 个 相似 邻居 进行 服务 质 
量 的 预测 趾 , 为 了 提高 预测 的 准确 性 , 笔者 提出 以 群体 
邻居 代替 单个 用 户 或 服务 邻居 进行 Top-K 的 选择 ,其 
公式 定义 如 下 : 


TUGSim(p) = {sp | sp € TopK (p), UGSim(sp, p) > 0,sp#p} (3) 


SGSim(q;,q.) = 


TSGSim(q) = {sq | sq € TopK (q), SGSim(sq, q) > 0,sq # q} (4) 


其 中 , TopK(p) 表 示 用 户 群体 p 的 最 相似 个 用 户 
群体 集合 , TopK(q) 表 示 服 务 群体 q 的 最 相似 性 KK 个 服 
务 群体 集合 。 

2.5 混合 型 Web 服务 推荐 公式 

本 文 提出 的 GHQR 将 基于 用 户 群 体 的 推荐 和 
基于 服务 群体 的 推荐 相 结合 ， 以 解决 QoS ACHE Pi iit 
性 问题 并 提高 推荐 的 预测 准确 性 。 混 合 型 Web 服务 
推荐 公式 定义 如 下 : 


> UGSim(p,sp)x (typ, — Bp) 
speTUGSim(p) 
> ， Sim(p, sp) 
speTUGSim(p) 
È SGSim(q,sq) x (Fy 54 rg) 
1 t+ sqeTSGSim(q) 
CG; X SGSim(q,sq) ) 
sqeTSGSim(q) 


USGP(r, j) = Y x (Tp + 


)+ 


(5) 
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其 中 , 参数 Y 和 参数 (1-Y) 分 别 为 基于 用 户 群 体 预 
测 方法 和 基于 服务 群体 预测 方法 在 混合 型 预测 算法 
中 所 占 的 预测 权重 。p 为 用 户 u 所 在 的 用 户 群 体 中 心 ， 
sp 属于 用 户 群 体 中 心 p 的 Top-K 相似 用 户 群 体 中 心 

合 ; q 为 服务 j 所 在 的 服务 群体 中 心 , sq 属于 服务 群 
体 中 心 q 的 Top-K 相似 服务 群体 中 心 集合 。 1, 表示 
所 在 的 用 户 群 体 中 心 p 对 调用 的 Web 服务 所 获得 的 
Qos 值 均值 。 

在 混合 型 Web 服务 推荐 公式 中 , 基于 用 户 群 体 的 
预测 方法 使 用 用 户 群 体 中 心 均值 代替 传统 算法 中 的 用 
户 均值 ， 而 对 于 基于 服务 群体 的 预测 方法 仍然 保留 传 
统 算法 中 的 服务 均值 方法 。 这 是 由 于 从 定义 4 中 可 以 
看 出 ， 服 务 群 体 中 心 实质 是 用 户 的 QoS 平均 值 ， 而 用 
户 平均 值 的 预测 准确 性 会 低 于 服务 平均 值 , 因此 为 了 
提高 Web 服务 的 推荐 准确 性 , 保持 原 有 算法 的 预测 优 
势 , 在 混合 型 Web 服务 推荐 算法 中 保留 服务 群体 计算 
过 程 中 的 服务 平均 方法 (5 ), 相似 性 的 计算 则 仍 改进 
为 基于 服务 群体 中 心 的 算法 。 

2.6 GHQR 算法 及 性 能 分 析 
输入 : QoS 数据 的 训练 集 TrainingData, QoS 数据 的 测试 集 
TestData, 服务 用 户 数 M, Web IRZ N, 相似 邻 居 数 Top-K， 相 似 度 
SEB Bla, AEE 5 BAB 
输出 : P(t j) 
Begin: 
@SimU=ComputeSimU (TrainingData, M); 
SimS=ComputeSimS (TrainingData, N); 
(@GroupCenterMatrixU= 
ConstructGroupCenterMatrixU(SimU, a, M, N); 
GroupCenterMatrixS= 
ConstructGroupCenterMatrixS(SimS, B, M, N); 


(®GroupSimU= ComputeSimU(GroupCenterMatrixU, M); 
GroupSimS= ComputeSimS(GroupCenterMatrixS, N); 


@for each missing ru, jin TestData do 

©)Sort the similarity values for user group of u-th row in 
GroupSimU with descend; 

@©Choose top K user group centers from the sorted user group 
similarities; 

@Sort the similarity values for service group of j-th row in 
GroupSimS with descend; 

@®Choose top K service group centers from the sorted service 
group similarities; 

(OPGu j) = PredictionQoSValue (TestData, GroupCenterMatrixU, 
GroupCenterMatrixS, K); 

(end for 

(for each target service user do 

Recommend a list of the functionally-equivalent candidate Web 


services which have high predicted QoS values in P(r,;) for 
target user; 


Bend for 
End 


在 算法 中 , ComputeSimU 和 ComputeSimS AZAY 
别 使 用 皮尔 森 相关 系数 法 计算 用 户 和 服务 之 间 的 相似 
性 ; 根据 定义 1 和 定义 2, 使 用 ConstructGroup 
CenterMatrixU 和 ConstructGroupCenterMatrixU KIŠU 
建 用 户 和 服务 群体 中 心 矩阵 ， 然 后 计算 用 户 和 服务 群 
体 中 心 之 间 的 相似 性 ; 为 目标 用 户 分 别 选择 Top-K 用 
户 和 服务 群体 中 心 的 相似 近邻 ; 运用 公式 (5) 使 用 
PredictionQoSValue 函数 计算 缺 省 的 QoS 预测 值 ; 最 
后 根据 预测 的 QoS 值 为 目标 用 户 推荐 具有 最 优 QoS 
预测 值 的 Web 服务 列表 以 满足 服务 用 户 的 需求 。 

在 相似 性 计算 时 间 复 杂 度 上 , GHQR 算法 与 传统 
的 基于 用 户 的 协同 推荐 (OM )) 或 基于 服务 的 协同 推 
荐 (OWN)) 算 法 相 比 , GHQR 增加 了 步骤 号 计算 群体 中 
心 之 间 的 相似 性 。 由 于 基于 用 户 和 基于 服务 的 推荐 算 
法 可 以 并 行 计算 , 故 GHQR 的 时 间 复 杂 度 为 
min(O(2M”), O(2N”))。 由 此 可 见 , 与 传统 协同 过 滤 推 荐 
算法 相 比 GHQR 并 未 增加 算法 的 时 间 复 杂 度 。 


3 实 验 
3.1 数据 来 源 


为 了 验证 GHQR 算法 的 有 效 性 和 准确 性 , 采用 拥 
有 大 规模 真实 Web 服务 质量 调用 记录 的 数据 集 
WS-DREAM"。 该 数据 集 包含 分 布 于 世界 各 地 的 339 
个 服务 用 户 对 5 825 个 Web 服务 调用 的 1 974 675 条 
QoS 值 记 录 外 。 本 实验 使 用 响应 时 间 (Response Time, 
RT) 进 行 对 比 实验 , WS-DREAM 中 部 分 响应 时 间 ( 单 位 
为 秒 ) 的 数据 如 表 1 所 示 , 矩阵 中 的 数据 表示 用 户 ui; 调 
用 服务 si 的 响应 时 间 值 。 


#1 WS-DREAM 中 部 分 响应 时 间 数 据 
Sı S2 S3 S4 
u 5.982 0.222 5.776 0.329 
U2 2.130 0.254 0.740 0.244 
U3 0.854 0.358 1.271 0.211 
u4 0.693 0.219 0.960 0.304 


Dhttp://www.wsdream.net/. 
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3.2 ”算法 推荐 标准 

为 了 评估 算法 的 预测 性 能 , 使 用 的 评价 指标 包括 
标准 平均 绝对 误差 (Normalized Mean Absolute Error, 
NMABE) FIH it (Coverage). HP NMAE 的 定义 公式 
如 下 所 示 : 


Daui 
Se, An AN u 对 服务 j 调用 的 真实 
响应 时 间 值 和 预测 响应 时 间 值 。 从 NMAE 的 定义 可 以 
看 出 , NMAE 值 越 小 , 表明 预测 的 响应 时 间 值 与 真实 
的 响应 时 间 值 之 间 的 误差 越 小 从 而 获得 的 预测 准确 
性 越 高 。 
针对 Web 服务 响应 时 间 值 的 属性 , 覆盖 率 定义 为 
预测 响应 时 间 值 大 于 0 的 预测 服务 数量 (plusNum) 与 实 
际 需 要 预测 的 全 部 服务 数量 (Num) 的 百分比 , 覆盖 率 
值 越 大 表明 预测 算法 能 正确 预测 Web 服务 QoS 值 的 百 
分 比 越 高 ,从 而 表明 预测 结果 越 好 。 具 体 计算 如 下 : 


plusNum 


NMAE = (6) 


(7) 


Coverage = 
Num 


3.3 ”实验 结果 及 分 析 

在 本 实验 中 , 笔者 将 GHQR 算法 与 4 种 代表 性 推 
荐 算法 作对 比分 析 : 传统 的 基于 用 户 的 协同 过 滤 推 荐 
算法 (UPCC)、 基 于 项 目的 协同 过 滤 推 荐 算法 (IPCC)、 
著名 的 基于 协同 过 滤 QoS 感知 的 Web 服务 推荐 算法 
(WSRec) 记 和 基于 用 户 群 体 影响 的 协同 过 滤 推 荐 算法 上 
(本 文 简称 CFBUGI). 

为 了 构造 真实 Web 服务 数据 稀疏 性 的 场景 ， 从 
WS-DREAM 数据 集 5 825 个 Web 服务 中 任意 挑选 出 
不 同 数量 的 Web 服务 ,使 用 参数 X 控制 挑选 的 Web 服 
务 数量 , 并 设置 X=1000 以 构造 数据 稀 琉 性 的 场景 。 将 
包含 MxX 的 数据 集 (命名 为 RTset) 分 为 两 个 部 分 , 一 
部 分 为 预测 算法 的 训练 集 ; 另 一 部 分 为 预测 算法 的 测 
试 集 。 参 数 Percent 表示 训练 集 所 占 RTset 的 百分比 。 
此 外 , 使 用 变量 Density 设置 训练 集 的 稀 玻 性 。 变 量 
Top-K 为 选择 的 相似 邻居 的 数量 。 

表 2 展示 了 GHQR 算法 与 4 种 推荐 算法 的 NMAE 
和 Coverage 值 对 比 结果 。 其 中 , 实验 环境 设置 为 
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Percent=80%, Top-K=30, #f 体 a=0.8, #f 体 B=0.8, 
Density 分 别 为 10%、20% 和 30%, 相应 的 Y 值 设置 为 
Y =0.8，Y =0.65，Y =0.45。 对 推荐 算法 WSRec 设置 
Top-K=90, UPCC 和 IPCC 的 权重 分 别 为 80% 和 20%。 
从 表 2 可 以 看 出 随 着 Density 从 10% 递 增 到 30%, GHQR 
均 获 得 最 低 的 NMAE 值 和 最 高 的 Coverage 值 。 表 3 是 
GHQR 算法 与 其 余 4 种 算法 相 比 在 NMAE 和 Coverage 
上 获得 的 提高 百分比 。 其 中 NMAE 和 Coverage 获得 的 
最 优 百分比 分 别 为 69% 和 188%。 如 表 2 和 表 3 所 示 , 表 
H GHQR 与 其 余 4 种 方法 相 比 在 不 同 稀 玻 性 的 设置 下 
均 获 得 最 优 的 预测 准确 性 ,同时 获得 最 高 的 预测 值 覆 
盖 率 , 从 而 验证 了 GHQR 算法 的 优越 性 。 

表 2 标准 平均 绝对 误差 和 覆盖 率 对 比 结果 
IPCC WSRec CFBUGI 


Metric Density UPCC GHQR 


10% 1.06642 2.50279 1.06642 
NMAE 20% 1.04139 2.26790 0.95167 
30% 1.04981 2.27672 0.97152 


0.81416 
0.77757 
0.78899 


0.72538 
0.73229 
0.73896 


10% 0.48334 0.27345 0.48334 
Coverage 20% 0.43179 0.39325 0.25057 
30% 0.41421 0.41814 0.27807 


0.79175 
0.83998 
0.80869 


0.98190 
0.91787 
0.82027 


表 3 GHQR EEEF HAR 2E M EMR 


Mene Day Impro. Vs Impro. Vs Impro. Vs Impro. Vs 


UPCC IPCC WSRec CFBUGI 
10% 32% 71% 32% 10.9% 
NMAE 20% 30% 68% 23% 5.8% 
30% 30% 68% 24% 6.3% 
Average 一 31% 69% 26% 7.7% 
10% 103% 259% 103% 2.4% 
Coverage 20% 113% 133% 266% 9.3% 
30% 98% 96% 195% 1.4% 
Average 一 105% 163% 188% 4% 


EAN ER ERETT, 使 用 单个 用 户 
(服务 ) 的 推荐 算法 可 能 会 面临 相似 邻居 缺失 的 问题 或 
其 相似 邻居 实质 上 并 不 太 相似 ， 而 是 刚好 与 目标 用 户 
(服务 ) 共 同调 用 过 较 少 数量 的 服务 (用 户 ) 中 。 然 而 相似 
邻居 的 寻找 是 协同 过 滤 推 荐 算法 中 最 重要 的 步骤 之 
一 。 在 相似 邻居 不 具有 高 相似 性 的 情况 下 进行 推荐 可 
能 导致 预测 QoS 值 与 真实 QoS 值 之 间 具 有 较 大 的 误 
差 。 因 此 推荐 算法 的 预测 准确 性 和 覆盖 率 都 需 获 得 进 
一 步 的 提高 。 如 表 1 中 以 单个 用 户 (服务 ) 进 行 推荐 的 
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算法 (UPCC,，IPCC，WSRec) 获 得 较 低 的 预测 准确 性 和 
覆盖 率 。 以 群体 代替 单个 用 户 ( 服 务 ) 的 推荐 算法 ,是 使 
用 用 户 ( 服 务 ) 群 体 中 心 代替 单个 用 户 (服务 ), 计算 用 户 
(服务 ) 群 体 与 用 户 ( 服 务 ) 群 体 之 间 的 群体 相似 性 代替 
单个 用 户 ( 服 务 ) 与 单个 用 户 ( 服 务 ) 之 间 的 相似 性 ， 从 而 
根据 群体 相似 性 寻找 到 更 准确 的 群体 相似 邻居 进行 推 
荐 ， 以 获得 更 准确 的 预测 QoS 值 ， 从 而 获得 较 高 的 预 
测 准确 性 和 覆盖 率 。 以 群体 进行 推荐 的 算法 (CFBUGI.、 
GHQR) 获 得 较 优 的 预测 性 能 从 而 验证 了 上 述 的 推理 。 
此 外 , 在 本 文 所 提 算 法 中 对 典型 的 混合 型 算法 进行 改 
进 ， 并 充分 利用 原 有 基于 用 户 和 基于 服务 推荐 算法 的 
预测 优势 ， 从 而 与 GHQR 群体 算法 相 比 具 有 较 优 的 预 
测 性 能 。 

(1) 预测 权重 7y 对 预测 结果 的 影响 

为 了 研究 预测 权重 y 对 预测 结果 的 影响 , 将 实验 
环境 设置 为 Percent=80%, K=30, 群体 a=0.8， 群 体 
B=0.8, Density 分 别 为 10%、20% 和 30%。 由 于 当 预 测 
权重 7 为 0 时 混合 算法 的 预测 结果 仅 为 基于 用 户 群 体 
的 预测 结果 ,而 当 预 测 权重 Y 为 1 时 , 混合 算法 的 预 
测 结果 仅 为 基于 服务 群体 的 预测 结果 。 所 以 将 预测 权 
HEY 以 步 长 0.05 从 初始 值 0.05 递增 到 0.95 以 研究 y 对 
GHQR 预测 结果 的 影响 。 
图 1 和 图 2 分 别 为 GHQR 与 基于 用 户 群 体 影响 的 
协同 过 滤 算 法 CFBUGI 在 NMAE 和 Coverage 指标 上 
的 预测 性 能 对 比 。 从 图 1 中 可 以 看 出 , 不 同 稀 琉 性 情 
况 下 当 y 值 增加 的 时 候 , 首先 GHQR 的 NMAE 值 持续 
降低 ， 到 达 最 低 值 时 再 增加 。 这 表明 在 不 同 稀 玻 性 情 
况 下 GHQR 的 最 佳 值 有 所 不 同 , 并 且 随 着 y 值 增加 基 
于 用 户 群 体 算法 在 GHQR 中 的 权重 值 逐步 下 降 。 当 稀 
BELEN 10%、20% 、30% 时 ， 获 得 最 佳 预测 值 的 Y 分 别 
为 0.8(0.72538) 、0.65(0.73229) 、0.45(0.73896) 。 与 
CFBUGI 算法 相 比 , 不 同 稀 琉 性 情况 下 的 GHQR 最 佳 
NMAE 值 均 小 于 0.74, 表明 GHOR 具有 较 优 的 预测 准 
确 性 。 同 理 从 图 2 中 可 以 看 出 ， 随 着 预测 权重 y 值 的 不 
断 增 加 ，GHQR 的 Coverage 值 也 持续 增加 并 最 后 到 
达 平 稳 状 态 。 当 稀 玲 性 为 10%、20%、30% 时 , 与 
CFBUGI 的 Coverage 值 0.80869, 0.83998, 0.79175 
相 比 , GHQR 获得 的 最 佳 Coverage 值 分 别 为 0.99286、 
0.98001、0.86577。 从 而 表明 GHQR 算法 具有 较 优 
的 预测 性 能 。 
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(Density=0.1) (Density=20%) (Density=30%) 
0.86 r 0.81 0.81 
—e— CFBUGI —e— CFBUGI 0.80 —e— CFBUGI 
0.84 —— GHQR | 9.80 —— GHQR | ; GHOR 7 
0.82 | 0.79 4 0.79} ¢ 
2 0.80 gan o Jg 7 
$ $0.77 | $0.77 
Ž 0.78 12 0.76 | ~ 0.76 
0.76 1 0.75 {0.75 
0.74 1 0.74 4 0.74 
0.72» n a ， 0.73 — iora en ea 0.73 ~~ aoaaa” aasa ať o 
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 


= Gamma Gamma 
图 1 预测 权重 Y 对 NMAE 的 影响 


(Density=10%) (Density=20%) (Density=30%) 


0 1.00 0.87 
—e—CFBUGI —e—CFBUGI —e—CFBUGI 
——GHQR ——GHQR 0.86f —— GHQR 
] 0.95 
0.85 
vo >) v 
2 2 0.90 3 0.84 
2 z 2 0.83 
S © 0.85 O 0.82 
0.80 0.81 
0.80 
0.75 at a CT i i E 0.75 a oe oer (a eee ae EE 0.79 — er a 1 
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 
Gamma Gamma Gamma 
图 2 预测 权重 Y 对 Coverage 的 影响 
(2) 群体 相似 度 阔 值 w(B) 对 预测 结果 的 影响 记 为 a(B)。a 和 B 值 以 0.1 为 步 长 从 0 递增 到 1。 与 


根据 定义 1 和 定义 2, 群体 相似 度 距离 闷 值 0 ”基于 用 户 群 体 影 响 的 协同 过 滤 算 法 CFBUGI 相 比 ， 
和 B 分 别 控制 群体 用 户 和 群体 服务 的 空间 大 小 。 为 GHQR 在 不 同 a 和 B 取 值 下 , 均 获 得 较 低 的 NMAE 
了 研究 这 两 个 参数 对 预测 结果 的 影响 ,如 图 3 所 示 ， 值 和 较 高 的 Coverage 值 ， 从 而 表明 GHQR 不 仅 能 
将 实验 环境 设置 为 Percent=80%, K=30, Density=10, ”提高 预测 的 准确 性 , 而 且 在 预测 值 履 盖 率 上 获得 显 
Y=0.6。 和 群体 相似 度 阔 值 w 和 群体 Bp 取 相同 的 值 , 标 ” 著 提 高 。 


(Density=10%) 
” "le CFBUGI 
—— GHQR 0.92 


(Density=10%) 


i —e—CFBUGI 
—+—GHOR 


01 02 03 04 05 06 07 08 09 1 “90 01 02 03 04 05 06 07 08 09 1 
a (P) a. (B) 
(a) (b) 


图 3 群体 a(B) 对 NMAE 和 Coverage 的 影响 
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本 文 利 用 群体 特性 提出 一 种 基于 相似 性 群体 的 混 
合 型 Web 服务 推荐 算法 , 该 算法 充分 利用 基于 用 户 群 
体 和 基于 服务 群体 的 优点 , 分 别 为 目标 用 户 和 服务 根 
据 相 似 性 距离 构造 个 性 化 的 相似 性 用 户 群 体 和 服务 群 
体 , 定义 用 户 群 体 和 服务 群体 中 心 , 并 设计 新 的 融合 
用 户 群 体 中 心 和 服务 群体 中 心 之 间 相 似 性 的 混合 型 
Web 服务 推荐 算法 。 实 验 结果 表明 本 文 所 提出 的 预测 
算法 不 仅 能 提高 Web 服务 预测 的 准确 性 而 且 能 获得 较 
高 的 覆盖 率 。 在 后 续 的 工作 中 将 对 更 多 的 QoS 属性 进 
行 研 究 以 拓展 混合 型 算法 的 应 用 场景 。 对 Web 服务 
Qos 值 预测 准确 性 有 影响 的 其 他 因素 (如 : QoS 的 时 序 
性 ,可 信 度 等 ) 也 将 是 后 续 工 作 的 研究 重点 。 
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Group Similarity Based Hybrid Web Service Recommendation 
Algorithm 
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Abstract: [Objective] This paper tries to solve the issues of lacking similar services or users in Web service computing 
due to the data sparsity of Quality of Service (QoS) recommendation. [Methods] First, we created personalized similar 
user and service groups according to similarity distance of the target users and services. Second, we used the group 
center similarities of the user and service groups to design a new hybrid recommendation algorithm(GHQR), which was 
tested with real-world data of 1.97 million QoS records. [Results] Compared with two traditional recommendation 
algorithms, the GHQR reduced the Normalized Mean Absolute Error (NMAE) by 31% and 69%. It also increased the 
Coverage by 105% and 163%, respectively. [Limitations] Our study only examined the response time of QoS, and 
more research was needed to investigate other QoS properties. [Conclusions] Comprared with WSRec and CFBUGI, 
the GHQR can reduce the NMAE by 26% and 7.7%. It also increased the Coverage by 188% and 4%, respectively. 
GHQR not only enhances the prediction accuracy but also increases the coverage significantly. 
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